#Opus 4.6 | 熱門關鍵字 | 鉅亨號

【新智元導讀】Opus之後，絕密Claude爆出！就在剛剛，頂配Claude Mythos全網洩露，被稱為有史以來「最強模型」，程式設計、推理全面超越。Anthropic一不小心，洩露了王炸！剛剛，《財富》獨家爆出——由於一次罕見的「人為配置」錯誤，最強大模型「Claude Mythos」絕密細節公之於眾。Claude Mythos代號「Capybara」，代表最高「層級」，是一款具有劃時代意義的全新模型。它不僅在程式設計、推理上，全面碾壓最強Claude Opus 4.6，更具備了強大的「網路攻擊」與「防禦能力」。參數規模或達10T內部測試顯示，Mythos將會帶來前所未有的安全風險。Anthropic至今按兵不動，是因為深知這頭「猛獸」一旦出籠，後果將無法預料。一時間，全網瞬間炸了！更多關於Mythos的爆料徹底刷屏。甚至，據傳未來幾周，Anthropic將通過Claude API對外開放Mythos。頂配Claude Mythos首次洩出全網炸鍋這件事的起因，讓人啼笑皆非。幾天前，網路安全公司LayerX Security和劍橋大學研究人員發現，Anthropic用於發佈官博的內容管理系統（CMS），因外部工具配置失誤結果導致——3000份原本應保密的內部檔案，暴露在公開可訪問的資料庫中。今天，《財富》意外檢索到了一篇博文草稿，爆出了Claude Mythos（Capybara）全新模型完成了訓練。而且， Anthropic至今未發，因為內部評估後太危險！眾所周知，Claude模型一共有三種杯型：Opus、Sonnet和Haiku。Capybara的定位是，一個比最強大的Opus體量更大、更智能，但也更昂貴的全新「頂配等級」。在官方撤下之前，網友M1及時將原文做了一個存檔。草稿部落格中，每一句話的含金量極高——與我們之前最好的模型Claude Opus 4.6相比，Capybara在軟體編碼、學術推理，以及網路安全等各項測試中的得分大幅提升。Claude Mythos是一款遠超以往、我們迄今開發過的最強大的AI模型。Claude 4.6 Opus的實力已無需贅言，但Mythos的出現，才是真正意義上的「終結者」。這種等級的跨越，遠比參數的增長更令人震撼。Anthropic自己都怕了，不敢放出！不過，Claude Mythos的極致性能，也帶來了極致的危險。Anthropic在草稿部落格中警示，新模型將會帶來巨大的「網路安全」風險。在網路攻擊上，Mythos遙遙領先於全球任何一款模型。因此，它極有可能被駭客用於發起大規模、破壞力極強的網路攻擊。其手段將遠遠超出防禦人員的應對能力。換句話說，Anthropic擔心駭客會利用Mythos發起大規模的網路攻擊，所以至今不敢發佈。部落格草稿中表示，正是因為存在這種風險，該模型發佈計畫的重點才會放在網路防禦者身上。我們將率先向相關機構開放搶先體驗權，讓他們能夠搶佔先機，在即將到來的一波由AI驅動的漏洞利用浪潮中，率先提高自家程式碼庫的穩健性。更多爆料：獨家高管閉門會除了新模型，洩露的PDF檔案還意外曝光了Anthropic的一項絕密商務行程：Dario Amodei即將前往英國一處18世紀莊園改造的豪華酒店，舉辦一場僅限受邀者參加的頂級CEO閉門峰會。這場針對歐洲最具影響力商業領袖的聚會，將潛在的巨頭客戶展示「Claude尚未發佈的神秘能力」。對此此次洩露，Anthropic承認，使用的一個外部CMS工具出了問題，導致草稿內容被曝光。洩露的許多檔案似乎是過去部落格文章用剩或廢棄的素材，比如圖片、橫幅和 logo。然而，有幾份檔案顯然是私密或內部文件。例如，其中一份檔案的標題就是在描述某位員工的「育兒假」。目前，Anthropic已緊急封鎖了該資料檢索通道，並承認了這場由「人為錯誤」引發的公關災難。 (新智元)

2026/02/21

•

Google殺瘋了Gemini 3 推理模式封神，碾壓 GPT-5.2，科研工程界迎終極神器

2026 年 AI 科研賽道再迎王炸！Google官宣 Gemini 3 Deep Think 推理模式重磅升級，劍指科學研究與工程落地的複雜難題，多項基準測試成績直接刷新全球紀錄，不僅碾壓 GPT-5.2、Claude Opus 4.6 等競品，更達到世界頂尖程式設計師、奧賽金牌級水平。更重磅的是，Google首次開放該模式 API 早期訪問，科研人和工程師的效率天花板，直接被重新定義！實測封神！全維度霸榜，多項成績碾壓主流大模型此次升級的 Gemini 3 Deep Think，最硬核的底氣就是實打實的測試成績，在數學、物理、程式設計、抽象推理等全維度高難度基準測試中，實現全面霸榜，無工具加持下的表現堪稱驚豔。在抽象推理核心測試 ARC-AGI-2 中，它拿下 84.6% 的超高正確率，遠超 Claude Opus 4.6 的 68.8% 和 GPT-5.2 的 52.9%，成績直接斷層領先。“終極人類考試” 中，48.4% 的得分也甩開 Claude 的 40.0%、GPT-5.2 的 34.5%，盡顯高階推理實力。程式設計領域更是直接封神，Codeforces 競賽程式設計基準中斬獲 3455 的 Elo 評分，遠超 Gemini 3 原版的 2512 和 Claude 的 2352，達到世界頂尖程式設計師水準。而在 2025 年國際奧賽中，數學、物理、化學理論測試均拿下金牌級成績，物理更是達到 87.7% 的正確率，把 GPT-5.2 的 70.5% 遠遠甩在身後。就連多模態理解、凝聚態物理理論等偏門高難領域，它也表現亮眼，MMMU-Pro 測試 81.5% 正確率、CMT-Benchmark 50.5% 得分，均大幅領先主流競品，真正實現了 “文理通吃、科工全能”。直擊痛點！專為科研工程而生，破解真實場景難題Google此次升級並非單純的參數堆砌，而是精準瞄準科研和工程場景的核心痛點 —— 真實工作中資料雜亂、問題邊界模糊、需要長鏈路邏輯推理，而 Deep Think 就是為解決這些問題量身打造。它摒棄了大模型常見的 “表面化推理”，擁有更深度的邏輯鏈分析能力，能處理科研中複雜的因果推導、工程裡精密的流程最佳化。Google已展示其實際應用價值：協助數學家快速發現論文中的邏輯漏洞，從繁雜的公式推導中定位問題；助力工程師最佳化半導體晶體生長工藝，通過多維度資料分析找到工藝提升的關鍵節點。不同於普通大模型只能做 “輔助性文案工作”，Deep Think 能真正深度參與科研和工程的核心環節，從理論分析到實際落地，提供可落地、可驗證的解決方案，讓 AI 從 “工具” 變成真正的 “科研夥伴”。重磅開放！API 解鎖，兩類使用者率先嘗鮮在成績亮眼、應用落地的雙重加持下，Google此次也邁出了關鍵一步 —— 打破封閉，首次開放 Gemini 3 Deep Think 的使用權限，讓頂尖 AI 能力走出實驗室，真正服務於科研和產業界。目前該模式已面向Google AI Ultra 訂閱使用者全面開放，這類使用者可直接體驗全功能的深度推理能力。更值得關注的是，Google首次通過Gemini API，向部分研究人員、工程師及企業提供早期存取權，這意味著相關從業者可將該模型接入自有系統、科研平台，實現定製化的深度應用。從以往的 “專屬封閉” 到如今的 “有限開放”，Google的這一動作，也讓全球科研和工程界看到了頂尖 AI 技術普惠的可能，未來無論是高校的基礎研究，還是企業的工程落地，都有望借助這一工具實現效率躍升。行業震動！AI 科研工具迎來新拐點，競爭再升級Gemini 3 Deep Think 的升級與開放，不僅讓科研人和工程師迎來 “效率神器”，更在全球 AI 行業引發連鎖震動，讓大模型的競爭從 “通用能力比拚” 轉向 “專業場景深耕”。此前，主流大模型更多聚焦於通用對話、內容生成，在專業科研工程領域的表現始終差強人意，而Google此次精準卡位高難度專業場景，用實打實的成績證明了大模型在硬核領域的落地價值。這也給其他 AI 廠商指明了方向：單純的參數競賽已無意義，能解決真實專業問題的模型，才擁有真正的核心競爭力。對於科研和工程界而言，這一升級更是一場效率革命 —— 以往需要團隊數天甚至數月的邏輯推導、工藝最佳化、程式碼編寫，如今借助 Deep Think 可能幾小時就能完成，大大縮短了研究和開發周期。而隨著 API 的逐步開放，未來還將催生更多基於該模型的專業工具，推動科研和工程領域的智能化升級。從全維度霸榜的測試成績，到直擊痛點的場景落地，再到打破封閉的 API 開放，Google Gemini 3 Deep Think 的此次升級，每一步都踩在了 AI 行業的核心發展點上。它不僅展現了Google在大模型領域的技術領先，更讓我們看到了 AI 賦能硬核科研、推動產業升級的無限可能。隨著頂尖 AI 技術的逐步普惠，科研和工程的智能化時代，已然加速到來！ (硬核科技喵)

2026/02/06

•

Claude Opus 4.6殺死程式設計比賽！挖出500個day0漏洞，生成k線成交量分佈，還有PPT直出

凌晨突襲，Opus 4.6多場景性能領先GPT-5.2。智東西2月6日報導，今天凌晨，Anthropic正式發佈旗艦模型Claude Opus 4.6，是Anthropic首款開啟100萬token上下文窗口測試功能的旗艦級模型。Opus 4.6具備更縝密的規劃能力，能維持更長時間的智能體任務執行，可以在龐大程式碼庫中穩定運行，並能夠進行自我糾錯。在基準測試中，Opus 4.6在智能體程式設計評估Terminal-Bench 2.0中獲得最高分，於綜合性多學科推理測試Humanity's Last Exam中也坐穩了第一名的寶座。針對金融、法律等經濟價值領域的GDPval-AA評估中，Opus 4.6也是第一，並較第二名的GPT-5.2拉開約144個Elo分差，較前代版本Claude Opus 4.5提升了190分。就在Opus 4.6發佈後幾分鐘，OpenAI把GPT-5.3-Codex也搬了出來“正面硬剛”。截至台北時間2月6日11點，X平台上有關“Claude VS Codex”的話題下已有4.1萬條討論。Varick Agent的CEO“vas”發帖稱：“Claude 4.6 Opus僅用一次呼叫就重構了我的整個程式碼庫。25次工具呼叫，新增3000多行程式碼，建立了12個全新檔案。它模組化了所有內容，拆解了單體架構，理順了混亂的邏輯。結果沒一個能運行，但重構後的程式碼，實在是美得驚人。”有網友展示出他用Opus 4.6一次性做出的k線成交量分佈表。評論區紛紛感嘆：這要是真的，那一切都結束了。在話題討論中，有不少網友都自發測評了Opus 4.6與GPT-5.3 Codex這兩款模型，還曬出了測試Agent在複雜現實世界任務中的表現的Terminal-Bench，結果顯示GPT-5.3 Codex比Opus 4.6領先了11.9%。在網友的測評中，在程式設計方面GPT-5.3 Codex獲得的好評似乎更多。有網友發出對比：“Opus 4.6有100萬上下文+企業/知識工作+發現500個零日漏洞+Claude程式碼中的Agent叢集-基準測試成績不如Codex 5.3；而gpt-5.3-codex有程式碼基準測試勝出+速度更快+任務中轉向，但上下文窗口不到Opus的一半。”還有網友放出了更直觀的性能對比圖：價格上，在200K上下文以內（包括200K），Opus 4.6輸入每百萬token的價格為5美元（約合人民幣34.69元），輸出每百萬token的價格為25美元（約合人民幣173.45元）；超過200K上下文，Opus 4.6輸入每百萬token的價格為10美元（約合人民幣69.38元），輸出每百萬token的價格為37.5美元（約合人民幣260.18元）。此外，Anthropic還將向Pro與Max使用者限時贈送價值50美元（約合人民幣346.9元）的額外使用額度，不適用於Team版、企業版及API/控制台使用者。使用額外額度的使用者需同時滿足以下兩個條件：1、已於2026年2月4日（太平洋時間）晚11:59前開通Pro或Max訂閱；2、在2026年2月16日（太平洋時間）晚11:59前啟用額外用量功能。Claude Opus 4.6即日起在claude.ai官網、API介面及所有主流雲平台同步上線。開發者可通過Claude API呼叫claude-opus-4-6模型。01. “大海撈針”測試得分76% 緩解“上下文衰減”問題在多語言程式設計測試SWE-bench Multilingual中，Opus 4.6的成績較Opus 4.5提升1.6分；在網路安全漏洞復現測試CyberGym中，Opus 4.6獲得66.6分，較Opus 4.5提升15.6分，是Sonnet 4.5分數的兩倍多。Opus 4.6在長文字連貫性測試Vending-Bench 2中以 8017.59 的分數大幅領先，在計算生物學BioPipelineBench測試中也以53.1分的成績位居第一。Opus 4.6在從海量文件中檢索相關資訊方面能力較上一代有所提升。這一優勢延伸至長上下文任務，它能在處理數十萬token時更穩定地保持和追蹤資訊，減少資訊漂移，並能捕捉到可能遺漏的深層細節。Anthropic團隊在部落格中稱，使用者常抱怨AI模型存在“上下文衰減”問題——即對話超過一定token數量後性能會下降。對此，研究團隊對Opus 4.6進行了MRCR v2的“8針-100萬”變體測試，這是類似於一種在浩瀚文字中檢索隱藏資訊的“大海撈針”式基準測試。在這個測試中Opus 4.6得分達76%，而Sonnet 4.5僅得18.5%。Opus 4.6的綜合基準測試如下圖所示。總而言之，Opus 4.6在長上下文中尋找資訊更精準，吸收資訊後的推理能力更強。02. 行為失范率極低新增六類網路安全探測工具智能水平的飛躍並未以犧牲安全性為代價。在Anthropic的自動化行為審計中，Opus 4.6的行為失范率極低，行為失范包括欺騙、奉承、助長使用者妄想以及配合濫用等情形。其安全對齊程度與前代旗艦模型，即迄今為止對齊度最高的Claude Opus 4.5保持同等水準。值得注意的是，Opus 4.6在所有近期Claude模型中展現出最低的過度拒絕率，即模型未能回應良性查詢的情況。在部落格中，Anthropic團隊透露，針對Opus 4.6，他們開展了迄今最全面的安全評估體系，首次應用多項全新測試方法並對既有評估方案進行升級。Anthropic團隊新增了使用者福祉評估、更複雜的危險請求拒答能力測試，並更新了模型隱蔽執行有害行為的評估標準。同時，其運用可解釋性科學的新方法進行實驗，開始探究模型特定行為背後的成因，以期發現標準測試可能遺漏的問題。針對Opus 4.6在特定領域可能被危險利用的突出能力，研究團隊同步部署了新的防護機制。尤其鑑於該模型顯著增強的網路安全能力，他們開發了6種新型網路安全探測工具以幫助追蹤不同形式的潛在濫用行為。同時，Anthropic也在加速推進Opus 4.6在網路防禦領域的應用，通過其協助發現並修復開放原始碼軟體漏洞。他們認為網路防禦者利用Claude這類AI模型來平衡攻防態勢至關重要。網路安全領域發展迅速，Anthropic將根據對潛在威脅的認知持續調整和更新防護措施，近期其可能啟動即時干預機制以阻斷濫用行為。03. API新增自適應思考功能 Claude Code現可多智能體平行通過API介面，開發者們還可以獲取到更精細的模型算力控制方案，並為長期運行的智能體任務帶來更高靈活性。具體新增以下功能：1、自適應思考：此前開發者僅能在啟用或停用深度思考模式間二選一。現在通過自適應思考功能，Claude可自主判斷何時需要深度推理。在默認算力等級（高）下，模型會在必要時啟動深度思考，開發者也可通過調整算力等級來改變其觸發頻率。2、算力調控：現提供四個可調節的算力等級：低、中、高（默認）、極致。3、上下文壓縮（測試版）：長程對話與智能體任務常觸及上下文窗口限制。當對話接近可配置閾值時，上下文壓縮功能將自動總結並替換早期對話內容，使Claude能夠執行更長任務而不受限制。4、100萬token上下文（測試版）：當提示內容超過20萬token時，將適用高級定價。5、128k輸出token：Opus 4.6支援最高128k token的輸出長度，使Claude能完整處理需要大規模輸出的任務，無需拆分為多次請求。6、美國境內推理：對於需要在美國境內運行的工作負載，可選擇美國專屬推理服務，定價為標準token費用的1.1倍。在Claude與Claude Code平台，Anthropic新增了多項功能：Claude Code中新增智能體團隊的研究預覽功能。現在使用者可以啟動多個平行工作的智能體，它們將自主協同配合，特別適用於程式碼庫審查這類可拆分為獨立、重讀取的子任務。在與常用辦公工具的協作體驗方面，Claude Excel整合版現在能夠處理長時程與高難度任務，支援先規劃後執行、自主解析非結構化資料並推斷正確格式，還能單次完成多步驟修改。Excel整合版還能搭配PowerPoint整合版使用，使用者可先在Excel中處理並結構化資料，再通過PowerPoint實現可視化呈現。PowerPoint整合功能現已面向Max、Team及企業版使用者開放研究預覽。04. 放手兩千次會話智能體團隊“煉”出十萬行C編譯器Anthropic官方還給出了一個開發者使用平行Claude智能體團隊建構C語言編譯器的案例。在這個案例中，開發者指派Opus 4.6率領智能體團隊建構一個C語言編譯器，隨後便基本放手任其運行，僅用兩周，就完成了一個小團隊一個月的工作。在為期兩周、近2000次Claude Code會話中，Opus 4.6消耗了20億個輸入token並生成1.4億個輸出token，總成本略低於2萬美元（約合人民幣13.88萬元），這個成本僅相當於開發者個人獨立完成所需投入的零頭。最終Opus 4.6做出了一個有著10萬行程式碼規模的編譯器，並且是淨室實現，即開發全程Claude無網路存取權，僅依賴Rust標準庫。這個編譯器能在x86、ARM和RISC-V架構上建構可啟動的Linux 6.9核心，還能編譯QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型項目。該編譯器在包括GCC torture測試套件在內的大多數編譯器測試中達到99%通過率，甚至通過了編譯器、作業系統等底層技術的 “終極測試”：成功編譯並運行第一人稱射擊遊戲《Doom》。經過多輪實踐，開發者總結出了協調多個Claude高效協作的四大核心方法：1、改進測試框架：在項目後期，Claude每次實現新功能時都會頻繁破壞現有功能。為此開發者建構了持續整合流水線，實施更嚴格的檢查機制，讓Claude能更好地測試自身工作，確保新提交不會破壞現有程式碼。2、站在Claude的視角設計適配環境：每個智能體都啟動於無上下文的新容器中，會花費大量時間自我定位，尤其在大型項目中。甚至在運行測試前，為幫助Claude自助，開發者需要在說明中要求維護詳細的README文件和進度檔案，並需頻繁更新當前狀態。3、簡化平行機制：當存在多個獨立失敗的測試時，平行化輕而易舉，但當智能體開始編譯Linux核心時卻陷入困境。與包含數百個獨立測試的套件不同，編譯Linux核心是單項巨型任務，所有智能體都會遇到相同的bug，修復後卻互相覆蓋修改，運行16個智能體也不行，因為它們都卡在解決同一問題上。為此，開發者編寫了新測試框架，將GCC作為線上驗證編譯器進行比對。這讓每個智能體都能平行工作，在不同檔案中修復不同bug，直至Claude的編譯器最終能編譯所有檔案。4、多元智能體角色分工：LLM編寫的程式碼常重複實現現有功能，因此開發者指派了一個智能體專門合併發現的重複程式碼。另一個負責最佳化編譯器本身的性能，第三個則專攻輸出高效的編譯程式碼，還讓一個智能體以Rust開發者視角批判項目設計並進行結構性改進，另設智能體專注文件工作。開發者稱，該成果已經逼近Opus的能力邊界，但仍有需要提升的方面：1、16位x86編譯器缺失：缺乏從真實模式啟動Linux必需的16位x86編譯器，該環節需呼叫GCC（x86_32和x86_64編譯器為自主實現）；2、彙編器與連結器不完善：這兩部分是Claude最後開始自動化的模組，目前仍存在較多缺陷。演示視訊中使用的是GCC彙編器與連結器；3、相容性未達全替代標準：雖能成功建構眾多項目，但尚不能完全替代真實編譯器；4、程式碼生成效率偏低：即使啟用所有最佳化選項，其輸出程式碼效率仍低於停用最佳化的GCC；5、Rust程式碼質量有限：程式碼質量尚可，但遠未達到專業Rust程式設計師的水準。05. 結語：Anthropic在安全性上下了狠功夫Opus 4.6在長上下文理解、複雜推理與智能體協作等方面的性能提升，為企業級高密度、長周期任務提供了新的解決方案。同時，在Anthropic的部落格中，他們用了很大篇幅來寫新模型的安全性。Anthropic通過增強安全評估體系與部署主動防護機制，展現出對AI風險治理的前置性投入。 (智東西)